호퍼 (마이크로아키텍처)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
호퍼는 엔비디아의 마이크로아키텍처로, TSMC 4N 공정을 통해 제작된 H100 GPU를 포함한다. 호퍼 아키텍처는 최대 144개의 스트리밍 멀티프로세서(SM)를 가지며, 텐서 메모리 가속기(TMA)를 통해 공유 메모리와 전역 메모리 간의 비동기 메모리 전송을 지원한다. SM당 FP32 처리량이 향상되었으며, 트랜스포머 엔진을 활용하여 전력 효율성을 높였다. 호퍼 H100은 최대 80GB의 HBM3 및 HBM2e 메모리를 지원하며, L2 캐시 용량과 대역폭이 증가했다. 2022년 발표되었으며, 그레이스 호퍼는 호퍼 기반 GPU와 그레이스 기반 CPU를 결합한 제품이다. H100 GPU는 고성능 컴퓨팅을 위해 설계된 엔비디아 DGX 시스템에 탑재되며, 2023년 AI 붐으로 수요가 급증했다.
엔비디아 호퍼 H100 GPU는 TSMC 4N 공정을 사용하여 800억 개의 트랜지스터로 구현되었으며, 최대 144개의 스트리밍 멀티프로세서(SM)로 구성된다.[4] SXM5 소켓 환경에서 엔비디아 호퍼 H100은 PCIe보다 더 나은 성능을 보여주었다.[20]
엔비디아의 그레이스 호퍼(Grace Hopper) GH200은 호퍼 기반 H200 GPU와 그레이스 기반 72코어 CPU를 단일 모듈에 결합한 것이다. 모듈의 총 전력 소모량은 최대 1000W이다. CPU와 GPU는 NVLink를 통해 연결되어 CPU와 GPU 메모리 간의 메모리 일관성을 제공한다.[19]
2019년 11월, 트위터 계정 (@kopite7kimi)에서 암페어 이후의 다음 아키텍처가 미 해군 준장이자 컴퓨터 과학자인 그레이스 호퍼의 이름을 따서 호퍼라고 불릴 것이라는 정보가 유출되었다. 이 계정은 호퍼가 다중 칩 모듈 설계를 기반으로 하여 낭비를 줄이면서 수율을 높일 수 있다고 언급했다.[20][7]
[1]
AV미디어
CUDA Programming Model for Hopper Architecture
https://www.nvidia.c[...]
Nvidia
2022-09-00
2. 아키텍처
2. 1. 스트리밍 멀티프로세서 (SM)
튜링 및 암페어 마이크로아키텍처를 개선했지만, 스트리밍 멀티프로세서(SM)당 최대 동시 워프 수는 64개로 유지되었다.[15] 호퍼 아키텍처는 공유 메모리와 전역 메모리 간의 양방향 비동기 메모리 전송을 지원하는 텐서 메모리 가속기(TMA)를 제공한다.[16] TMA에서 애플리케이션은 최대 5D 텐서를 전송할 수 있다. 공유 메모리에서 전역 메모리로 쓸 때, 요소별 축소 및 비트별 연산자를 사용하여 레지스터 및 SM 명령어를 피하면서 사용자가 워프 특화 코드를 작성할 수 있도록 할 수 있다. TMA는 `cuda::memcpy_async`를 통해 표출된다.[15]
애플리케이션을 병렬화할 때 개발자는 스레드 블록 클러스터를 사용할 수 있다. 스레드 블록은 클러스터 내 다른 스레드 블록의 공유 메모리(분산 공유 메모리라고도 부름)에서 원자적 연산들을 수행할 수 있다. 분산 공유 메모리는 L2 캐시와 동시에 SM에 의해 사용될 수 있다. SM 간 데이터 통신에 사용될 때 이는 분산 공유 메모리와 L2의 결합된 대역폭을 활용할 수 있다. 최대 포터블 클러스터 크기는 8이지만 엔비디아 호퍼 H100은 `cudaFuncAttributeNonPortableClusterSizeAllowed` 기능을 사용하여 클러스터 크기 16을 지원할 수 있지만 잠재적으로 액티브 블록 수가 줄어들 수 있다.[15] L2 멀티캐스팅 및 분산 공유 메모리를 사용하면 동적 랜덤 액세스 메모리 읽기 및 쓰기에 필요한 대역폭이 줄어든다.[15]
호퍼는 이전 제품보다 SM·사이클 단위마다 2배 많은 FP32 작업을 통해 향상된 단정밀도 부동 소수점 형식 (FP32) 처리량을 제공한다. 또한 호퍼 아키텍처는 스미스-워터만 알고리즘을 포함한 새로운 명령어를 추가로 지원한다.[15] 암페어 아키텍처와 마찬가지로 TensorFloat-32(TF-32) 연산이 지원된다. 두 아키텍처의 매핑 패턴은 동일하다.[16]
2. 2. 메모리
엔비디아 호퍼 H100은 최대 80GB의 HBM3 및 HBM2e 메모리를 지원한다. HBM3 메모리 시스템은 엔비디아 암페어 A100의 2TB/s에 비해 50% 증가한 3TB/s를 지원한다. 아키텍처 전반에 걸쳐 L2 캐시 용량과 대역폭이 증가했다.
CUDA 컴퓨팅 커널은 개별 메모리 할당을 포함하여 자동 인라인 압축을 활용하여 더 높은 대역폭에서 메모리에 접근할 수 있다. 데이터와 압축 가능성은 언제든지 변경될 수 있으므로 이 기능이 애플리케이션에 사용 가능한 메모리 양을 늘려주지는 않는다. 메모리 압축기는 여러 압축 알고리즘 중에서 자동으로 선택한다.
엔비디아 호퍼 H100은 L1 캐시, 텍스처 캐시 및 공유 메모리를 결합하여 용량을 256KB로 늘렸다. 이전 버전과 마찬가지로 L1 및 텍스처 캐시를 통합 버퍼로 설계된 통합 캐시로 결합한다. cudaFuncAttributePreferredSharedMemoryCarveout
속성은 L1 캐시의 카브아웃을 정의하는 데 사용될 수 있다.
2. 2. 1. 메모리 동기화 도메인
호퍼 아키텍처에서 GPU는 펜스 작업을 통해 넷 캐스트를 줄여 메모리 작업 속도를 향상시킨다. CUDA 애플리케이션은 메모리 정렬 때문에 펜스나 플러시 작업을 할 때 간섭을 받을 수 있다. GPU는 어떤 쓰기가 보장되고 어떤 쓰기가 우연히 보이는지 알 수 없어 불필요한 메모리 작업을 기다려 펜스나 플러시 작업 속도가 느려질 수 있다. 예를 들어 커널이 GPU 메모리에서 계산을 하고 병렬 커널이 피어와 통신하면 로컬 커널은 쓰기를 플러시하여 NVLink나 PCIe 쓰기 속도가 느려진다.
2. 3. DPX 명령어
호퍼 아키텍처 수학 응용 프로그래밍 인터페이스(API)는 SM에서 하프 워드당 연산을 수행하는 `__viaddmin_s16x2_relu`와 같은 함수를 제공한다. 이 함수는 연산을 수행한다. 스미스-워터만 알고리즘에서는 3방향 최소값 또는 최대값 다음에 0으로 고정되는 `__vimax3_s16x2_relu`를 사용할 수 있다.[16] 마찬가지로 호퍼는 니들만-분쉬 알고리즘의 구현 속도를 높인다.[17]
2. 4. 트랜스포머 엔진
호퍼 아키텍처는 트랜스포머 엔진을 구현한 최초의 엔비디아(Nvidia) 아키텍처였다.[4] 트랜스포머 엔진은 정밀도 손실이 허용 가능한 수준이라고 판단될 때, 더 높은 수치 정밀도(예: FP16)에서 더 빠르게 수행되는 낮은 정밀도(예: FP8)로 동적으로 줄여 계산 속도를 높인다.[4] 또한 트랜스포머 엔진은 정밀도를 최대화하기 위해 선택된 정밀도 내에서 런타임에 가수 또는 지수에 비트를 동적으로 할당할 수 있다.[5]
2. 5. 전력 효율성
SXM5 폼 팩터 H100의 열 설계 전력(TDP)은 700 와트이다. 비동기성과 관련하여 호퍼 아키텍처는 높은 수준의 활용도를 얻을 수 있으므로 더 나은 와트당 성능을 가질 수 있다.
3. 그레이스 호퍼
4. 역사
2022년 Nvidia GTC 컨퍼런스에서 호퍼가 공식적으로 발표되었다.[21][8] 2023년에는 AI 붐으로 인해 H100의 수요가 급증했다. 오라클의 래리 엘리슨은 그 해 엔비디아 CEO 젠슨 황과의 만찬에서 그와 테슬라의 일론 머스크 및 XAI가 H100을 "구걸하고 있었다"고 말했다. 그는 이 상황을 "초밥과 구걸의 한 시간"이라고 묘사했다.[22][9]
2024년 1월, Raymond James Financial의 애널리스트들은 엔비디아가 H100 GPU를 개당 25000USD에서 30000USD 사이의 가격으로 판매하고 있으며, 이베이에서는 개별 H100이 40000USD 이상에 판매되고 있다고 추정했다.[10] 2024년 2월, 엔비디아는 H100 GPU를 장갑차에 실어 데이터 센터로 운송하고 있다는 보도가 있었다.[11]
5. H100 가속기 및 DGX H100
모델 아키텍처 소켓 FP32
CUDA
코어FP64 코어
(텐서 제외)혼합
INT32/FP32
코어INT32
코어부스트
클럭메모리
클럭메모리
버스 폭메모리
대역폭VRAM 단정밀도
(FP32)배정밀도
(FP64)INT8
(비텐서)INT8
밀집 텐서INT32 FP4
밀집 텐서FP16 FP16
밀집 텐서bfloat16
밀집 텐서텐서플로트-32
(TF32)
밀집 텐서FP64
밀집 텐서상호 연결
(NVLink)GPU L1 캐시 L2 캐시 TDP 다이 크기 트랜지스터
개수공정 출시 H200 호퍼 SXM5 16896 4608 16896 해당 없음 1980MHz 6.3Gbit/s HBM3e 6144bit 4.8TB/s 141 GB HBM3e 67 TFLOPS 34 TFLOPS 해당 없음 1.98 POPS 해당 없음 해당 없음 해당 없음 990 TFLOPS 990 TFLOPS 495 TFLOPS 67 TFLOPS 900GB/s GH100 25344 KB (192 KB × 132) 51200 KB 1000 W 814mm2 80 B TSMC 4N 2023년 3분기 H100 호퍼 SXM5 16896 4608 16896 해당 없음 1980 MHz 5.2Gbit/s HBM3 5120bit 3.35TB/s 80 GB HBM3 67 TFLOPS 34 TFLOPS 해당 없음 1.98 POPS 해당 없음 해당 없음 해당 없음 990 TFLOPS 990 TFLOPS 495 TFLOPS 67 TFLOPS 900GB/s GH100 25344 KB (192 KB × 132) 51200 KB 700 W 814mm2 80 B TSMC 4N 2022년 3분기 A100 80GB 암페어 SXM4 6912 3456 6912 해당 없음 1410 MHz 3.2Gbit/s HBM2e 5120bit 1.52TB/s 80 GB HBM2e 19.5 TFLOPS 9.7 TFLOPS 해당 없음 624 TOPS 19.5 TOPS 해당 없음 78 TFLOPS 312 TFLOPS 312 TFLOPS 156 TFLOPS 19.5 TFLOPS 600GB/s GA100 20736 KB (192 KB × 108) 40960 KB 400 W 826mm2 54.2 B TSMC N7 2020년 1분기 A100 40GB 암페어 SXM4 6912 3456 6912 해당 없음 1410 MHz 2.4Gbit/s HBM2 5120bit 1.52TB/s 40 GB HBM2 19.5 TFLOPS 9.7 TFLOPS 해당 없음 624 TOPS 19.5 TOPS 해당 없음 78 TFLOPS 312 TFLOPS 312 TFLOPS 156 TFLOPS 19.5 TFLOPS 600GB/s GA100 20736 KB (192 KB × 108) 40960 KB 400 W 826mm2 54.2 B TSMC N7 2020년 1분기 V100 32GB 볼타 SXM3 5120 2560 해당 없음 5120 1530 MHz 1.75Gbit/s HBM2 4096bit 900GB/s 32 GB HBM2 15.7 TFLOPS 7.8 TFLOPS 62 TOPS 해당 없음 15.7 TOPS 해당 없음 31.4 TFLOPS 125 TFLOPS 해당 없음 해당 없음 해당 없음 300GB/s GV100 10240 KB (128 KB × 80) 6144 KB 350 W 815mm2 21.1 B TSMC 12FFN 2017년 3분기 V100 16GB 볼타 SXM2 5120 2560 해당 없음 5120 1530 MHz 1.75Gbit/s HBM2 4096bit 900GB/s 16 GB HBM2 15.7 TFLOPS 7.8 TFLOPS 62 TOPS 해당 없음 15.7 TOPS 해당 없음 31.4 TFLOPS 125 TFLOPS 해당 없음 해당 없음 해당 없음 300GB/s GV100 10240 KB (128 KB × 80) 6144 KB 300 W 815mm2 21.1 B TSMC 12FFN 2017년 3분기 P100 파스칼 SXM/SXM2 해당 없음 1792 3584 해당 없음 1480 MHz 1.4Gbit/s HBM2 4096bit 720GB/s 16 GB HBM2 10.6 TFLOPS 5.3 TFLOPS 해당 없음 해당 없음 해당 없음 해당 없음 21.2 TFLOPS 해당 없음 해당 없음 해당 없음 해당 없음 160GB/s GP100 1344 KB (24 KB × 56) 4096 KB 300 W 610mm2 15.3 B TSMC 16FF+ 2016년 2분기 참조
[2]
웹사이트
Boosting Dynamic Programming Performance Using NVIDIA Hopper GPU DPX Instructions
https://developer.nv[...]
Nvidia
2022-12-08
[3]
웹사이트
NVIDIA Hopper GPU Architecture Accelerates Dynamic Programming Up to 40x Using New DPX Instructions
https://blogs.nvidia[...]
Nvidia
2022-03-22
[4]
웹사이트
H100 Transformer Engine Supercharges AI Training, Delivering Up to 6x Higher Performance Without Losing Accuracy
https://blogs.nvidia[...]
Nvidia
2023-05-29
[5]
웹사이트
Nvidia’s Next GPU Shows That Transformers Are Transforming AI - IEEE Spectrum
https://spectrum.iee[...]
2024-10-23
[6]
웹사이트
NVIDIA: Grace Hopper Has Entered Full Production & Announcing DGX GH200 AI Supercomputer
https://www.anandtec[...]
2023-05-29
[7]
웹사이트
NVIDIA Next Generation Hopper GPU Leaked – Based On MCM Design, Launching After Ampere
https://wccftech.com[...]
2019-11-16
[8]
웹사이트
Nvidia reveals H100 GPU for AI and teases 'world's fastest AI supercomputer'
https://www.theverge[...]
2022-03-22
[9]
뉴스
Nvidia's Stunning Ascent Has Also Made It a Giant Target
https://www.wsj.com/[...]
2024-02-27
[10]
뉴스
Mark Zuckerberg indicates Meta is spending billions of dollars on Nvidia AI chips
https://www.cnbc.com[...]
2024-01-18
[11]
뉴스
Armored Cars and Trillion Dollar Price Tags: How Some Tech Leaders Want to Solve the Chip Shortage
https://www.wsj.com/[...]
2024-02-14
[12]
뉴스
NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder
https://www.anandtec[...]
AnandTech
2022-03-22
[13]
뉴스
NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator
https://www.anandtec[...]
AnandTech
2020-05-14
[14]
웹사이트
NVIDIA Tesla V100 tested: near unbelievable GPU power
https://www.tweaktow[...]
2017-09-17
[15]
영상
CUDA Programming Model for Hopper Architecture
https://www.nvidia.c[...]
Nvidia
2022-09-00
[16]
웹인용
Boosting Dynamic Programming Performance Using NVIDIA Hopper GPU DPX Instructions
https://developer.nv[...]
Nvidia
2023-05-29
[17]
웹인용
NVIDIA Hopper GPU Architecture Accelerates Dynamic Programming Up to 40x Using New DPX Instructions
https://blogs.nvidia[...]
Nvidia
2023-05-29
[18]
웹인용
H100 Transformer Engine Supercharges AI Training, Delivering Up to 6x Higher Performance Without Losing Accuracy
https://blogs.nvidia[...]
Nvidia
2023-05-29
[19]
웹인용
NVIDIA: Grace Hopper Has Entered Full Production & Announcing DGX GH200 AI Supercomputer
https://www.anandtec[...]
2023-05-29
[20]
웹인용
NVIDIA Next Generation Hopper GPU Leaked – Based On MCM Design, Launching After Ampere
https://wccftech.com[...]
2023-05-29
[21]
웹인용
Nvidia reveals H100 GPU for AI and teases 'world's fastest AI supercomputer'
https://www.theverge[...]
2023-05-29
[22]
뉴스
Nvidia’s Stunning Ascent Has Also Made It a Giant Target
https://www.wsj.com/[...]
2024-02-27
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com